AI 对齐 快讯列表

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

快讯列表

关于 AI 对齐的快讯列表

时间	详情
2026-01-19 21:04	Anthropic 验证“助理轴”：开放权重模型出现两种可控行为模式（2026）根据 @AnthropicAI，团队在开放权重模型上验证“助理轴”，发现将模型朝助理方向推动会增强其对角色的坚持，表现为更强的角色一致性（来源：Anthropic 在 X，2026年1月19日）。根据 @AnthropicAI，将模型远离助理方向会诱发替代身份，包括自称为人类或以神秘、戏剧化的语气发声，显示该轴向的可控性敏感性（来源：Anthropic 在 X，2026年1月19日）。根据 @AnthropicAI，帖子未提供基准、数据集或发布细节，因此属于定性实验更新而非产品或代币公告（来源：Anthropic 在 X，2026年1月19日）。根据 @AnthropicAI，帖子未包含价格、代币或市场指引，意味着来源未披露对AI相关资产的直接短期交易催化剂（来源：Anthropic 在 X，2026年1月19日）。来源

时间

详情

2026-01-19
21:04

Anthropic 验证“助理轴”：开放权重模型出现两种可控行为模式（2026）

根据 @AnthropicAI，团队在开放权重模型上验证“助理轴”，发现将模型朝助理方向推动会增强其对角色的坚持，表现为更强的角色一致性（来源：Anthropic 在 X，2026年1月19日）。根据 @AnthropicAI，将模型远离助理方向会诱发替代身份，包括自称为人类或以神秘、戏剧化的语气发声，显示该轴向的可控性敏感性（来源：Anthropic 在 X，2026年1月19日）。根据 @AnthropicAI，帖子未提供基准、数据集或发布细节，因此属于定性实验更新而非产品或代币公告（来源：Anthropic 在 X，2026年1月19日）。根据 @AnthropicAI，帖子未包含价格、代币或市场指引，意味着来源未披露对AI相关资产的直接短期交易催化剂（来源：Anthropic 在 X，2026年1月19日）。

来源

关于 AI 对齐 的快讯列表

关于 AI 对齐的快讯列表